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摘要 : 大 天 区 面积 多 目标 光纤 光谱 天 文 望远镜 ( Large Sky Area Multi-Object Fiber 
Spectroscopy Telescope , LAMOST ,又 叫 郭 守 镜 望远镜 ) 巡天 项 目 提供 了 海量 恒星 光谱 
数据 ，DR5 数据 集中 包含 大 量 A 型 星 谱 线 指数 和 有 效 温度 的 信息 。 机 器 学 习 算 法 例如 可 以 
发 掘 数据 底层 相互 关系 的 神经 网 络 模型 广泛 运用 于 多 个 学 科 。 通 过 使 用 DRS 数据 集中 的 A 
型 星 19 种 谱 线 指数 和 有 效 温 度数 据 ， 通 过 主 成 分 分 析 法 ， 给 出 了 每 种 谱 线 指数 占 整个 数据 
守 息 的 百分比 ,并 以 此 为 基础 ， 选 取 与 有 效 温度 关系 最 紧密 的 12 种 谱 线 指数 数据 ， 利 用 有 
效 温度 误差 小 于 100K 的 数据 训练 得 到 有 效 温度 的 神经 网 络 回归 模型 。 模型 在 测试 数据 集 上 
整体 表现 较 好 ,程序 给 出 的 决定 系数 R? 为 0.904 , 平均 绝对 误差 为 58.38K。 对 比 相关 研究 
的 模型 ， 测 量 准确 度 有 了 明显 提升 。 此 外 ， 通 过 建立 模型 ， 对 有 效 温度 误差 大 于 100K 的 原 
始 数据 重新 进行 测量 ,得 到 的 有 效 温 度数 据 绝对 误差 的 平均 值 有 了 明显 下 降 ; 同时 DR5 数 
据 集中 AS 型 恒星 数据 缺少 有 效 温 度 参数 ， 通 过 模型 的 测量 ， 对 这 一 部 分 数据 进行 了 补充 ， 
提供 了 一 定 程 度 的 参考 意义 。 
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根据 哈佛 恒星 光谱 分 类 方法 ， 和 恒星 的 光谱 可 分 为 0，B，A，F，G，K，M，R，S,， N 等 光 
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谱 型 ， 对 应 恒星 的 温度 依次 递减 ，A 型 星 的 温度 区 间 位 于 7 500 K 4211 000 K, SAE, 
有 强烈 的 氨 吸 收 线 ， 并 且 由 于 温度 很 高 ， 同 时 具有 电离 铺 和 电离 镁 线 " 。 于 1993 年 提出 


建设 的 LAMOST ME”, 2009 年 通过 验收 观测 至 今 已 经 十 余年 , 数据 集 DR5 包括 4154 个 观测 


天 区 ， 发 布 901 万 条 光谱 ， 


其 中 包含 大 量 的 A 型 星 的 谱 线 指数 数据 和 恒星 参数 数据 。 


相对 于 简单 传统 的 回归 模型 ,通过 神经 网 络 建立 的 回归 模型 可 以 更 高 效 准确 地 完成 任务 ， 
这 要 归功 于 神经 网 络 模型 可 以 捕捉 非 线性 效应 和 更 高 阶 的 相互 作用 。 对 于 较为 复杂 的 数据 和 
问题 ,神经 网 络 可 以 挖 据 出 数据 背后 的 相关 性 ， 并且 给 出 比较 令 人 满意 的 结果 ， 在 数据 处 理 
领域 ， 以 神经 网 络 为 例 的 众多 机 器 学 习 算 法 已 经 被 广泛 运用 于 各 个 学 科 的 研究 之 中 。 


包括 有 效 温度 在 内 的 恒星 参数 是 决定 恒星 光谱 的 重要 信息 , 对 恒星 演化 的 研究 具有 重要 


意义 ”。 对 于 包括 有 效 温度 在 内 的 恒星 参数 的 测量 方法 ， 主 要 有 两 类 ”: (1) 通过 将 待 测 恒 


(2 


WY 


星光 谱 与 已 知 参 数 的 标准 恒星 光谱 进行 匹配 , 将 匹配 最 好 的 模板 光谱 参数 作为 待 测 恒星 参数 。 
类 似 非 线性 回归 的 方法 ， 比 如 神经 网 络 模型 ， 利 用 光谱 数据 通过 神经 网 络 结构 训练 测 


试 恒星 大 气 参数 ”。 谱 线 指数 是 包含 恒星 自身 物理 特征 信息 的 重要 参数 ， 利 用 谱 线 指数 可 以 
进行 众多 的 天 文 研 究 , 例如 : 文 [124 利 用 谱 线 指数 数据 对 恒星 光谱 进行 聚 类 分 析 研 究 。 文 [7] 


利用 谱 线 指数 建立 人 工 神 经 网 络 对 包括 有 效 温 度 在 内 的 恒星 参数 进行 了 测量 ， 文 中 使 用 


LAMOST 数据 训练 得 到 的 模型 ， 预 测 得 到 有 效 温度 的 误差 正 态 分 布 数学 期 望 为 -316. 02， 标 准 
差 为 617. 36。 使 用 SDSS DR8 数据 训练 的 模型 结果 稍 好 ,但 误差 的 正 态 分 布 数学 期 望 为 88. 58， 


标准 差 为 147. 81。 可 见 文 中 
进 与 研究 。 


FP 的 方法 还 不 能 比较 准确 地 给 出 有 效 温度 数据 ， 需 要 进一步 的 改 


本 文 使 用 主 成 分 分 析 方 法 (Principal Components Analysis，PCA)， 运 用 于 LAMOST DR5 
数据 集中 的 A 型 星 数 据 ， 对 19 种 谱 线 指数 数据 进行 相关 性 降 维 ， 再 给 出 每 种 谱 线 指数 占 整 


个 数据 信息 的 百分比 ,以 此 为 依据 , 选择 与 有 效 温度 关系 最 紧密 的 几 种 谱 线 指数 作为 模型 的 
输入 ， 经 过 测试 ， 选 择 占 比 最 大 的 前 12 种 谱 线 指数 数据 作为 神经 网 络 模型 的 输入 。 同 时 选 
择 有 效 温度 误差 小 于 100K 的 数据 作为 输入 数据 ， 训 练 得 到 了 A 型 星 的 谱 线 指数 与 有 效 温度 
的 神经 网 络 回归 模型 。 通 过 建立 的 神经 网 络 模型 ， 给 出 了 8644 组 有 效 温度 误差 大 于 100K 
的 A 型 星 有 效 温 度数 据 ， 一 定 程度 上 对 数据 进行 了 改进 与 提升 ， 并 且 通 过 神经 网 络 模型 对 
LAMOST DR5 数据 集中 光谱 型 为 A5， 缺 少 有 效 温 度数 据 的 A5 型 星 数 据 进行 了 补充 ， 给 出 了 这 


1 主 成 分 分 析 


些 恒星 的 有 效 温度 数据 ， 提 供 了 一 定 的 参考 意义 。 


如 今 科 学 研究 所 面临 的 问题 日 渐 深 入 复杂 ， 要 处 理 的 数据 量 也 随 之 剧 增 ， 单 纯 直接 处 
理 庞大 的 数据 已 经 不 能 满足 科学 研究 对 高 效 性 地 追求 .为 了 从 复杂 繁琐 的 数据 中 提取 主要 信 


法 之 一 。 


息 ， 必 须 利 用 一 些 科学 手段 ， 寻 找 数 据 之 间 的 相关 性 ， 对 数据 进行 们 化 ， 有 效 减少 数据 的 维 
度 , 但 同时 保证 数据 提供 的 信息 极 大 程度 地 保留 下 来 , 尽量 减少 在 这 个 过 程 中 数据 所 携带 信 
乱 的 损失 。 主 成 分 分 析 法 便 是 为 此 应 运 而 生 的 一 种 算法 , 现在 已 经 成 为 使 用 最 广泛 的 降 维 方 


主 成 分 分 析 法 是 一 种 运用 十 分 广泛 的 降 维 方 法 。 对 于 大 样本 多 参量 观测 数据 ， 它 可 以 简 


捷 有 效 地 寻求 参量 之 间 的 相互 关系 ， 从 而 对 数据 降 维 ， 可 以 去 除数 据 噪声 ， 消 除数 据 沉 余 ， 
使 得 数据 更 易 被 使 用 。 主 成 分 分 析 法 的 主要 思想 是 找 出 数据 最 主要 的 信息 、 最 主要 的 成 分 代 


蔡 原 始 数据 ， 以 此 达到 对 原始 数据 降 维 的 目的 ， 即 在 减少 需要 分 析 的 指标 的 同时 ， 尽 量 减 少 


原 指标 所 包含 的 信息 的 损失 。 这 种 方法 最 早 被 应 用 于 社会 科学 的 研究 领域 。 之 后 随 厦 20 H 
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纪 60 年 代 计 算 机 的 兴起 和 发 展 ， 开 始 广泛 运用 于 自然 科学 的 研究 领域 所 ， 于 此 同时 ， 主 成 
分 分 析 法 也 开始 运用 于 天 体 物理 学 领域 , 在 近 几 年 的 天 文 研究 中 , 文 [ 轨 利 用 LAMOST 巡天 光 
谱 DR2 数据 ,使 用 R 语言 的 主 成 分 分 析 工具 提取 各 类 型 光谱 数据 的 特征 量 ， 从 含有 大 量 宛 你 
信息 的 光谱 中 提取 代表 恒星 光谱 特征 的 主要 成 分 ， 除 此 之 外 在 星系 和 恒星 的 光谱 分 类 加、 特 
征 参量 的 挑选 、 活 动 星系 核 光 变 的 研究 、 大 样本 天 体 红 移 的 测量 等 方面 ， 主 成 分 分 析 法 都 有 
不 错 的 表现 ”。 近 年 来 随 着 计算 机 与 机 器 学 习 的 飞速 发 展 ， 为 了 克服 主 成 分 分 析 法 的 一 些 缺 
点 ， 开 发 了 很 多 主 成 分 分 析 法 的 一 些 变种 ， 比 如 解决 非 线性 降 维 的 KPCA， 解 决 内 存 限制 的 
增 量 PCA 方法 (Incremental PCA)， 以 及 解决 稀疏 数据 降 维 的 PCA 方法 Sparse PCA 等 。 


1.1 主 成 分 分 析 的 数学 原理 


接 下 来 在 天 文 观测 的 背景 下 , 介绍 主 成 分 分 析 法 的 数学 原理 , 首先 假设 需要 处 理 分 析 的 
数据 样本 由 n 个 天 体 组 成 ， 每 个 天 体 对 应 m 个 观测 参量 ， 即 m 个 特征 指标 ， 因 此 ， 观 测量 可 
以 表示 成 矩阵 X, 如 (1) 式 , 矩阵 X 称 之 为 观测 矩阵 , 其 行 矢量 对 应 同一 天 体 的 不 同 特征 量 ， 
列 矢量 对 应 不 同 天 体 的 同一 特征 量 。 


I 


X11 X12 ane Xim 
X21 X22 aan X2m 

X= (Xij) nem =a : `. : C1) 
Xn1 Xn2 = Xnm 


pe = eX = Xp te eiXpgi to + emXgm (2) 


设 待 求 的 mm 维特 征 向 量 为 e， 则 一 个 主 成 分 pc 可 以 表示 成 (2) 式 。 同 时 ， 为 了 保证 在 降 
维 过 程 中 数据 所 携带 的 信息 不 丢失 ， 降 维 后 的 主 成 分 应 尽 可 能 多 地 体现 原始 观测 量 的 信息 ， 
并 且 保证 主 成 分 之 间 互 相 独立 。 随 机 变量 的 方差 可 以 体现 随机 变量 所 携带 的 信息 ， 
特征 向 量 e 其 方差 的 大 小 也 不 同 ， 主 成 分 分 析 法 就 是 寻找 使 主 成 分 pc 的 方差 达到 最 大 的 一 
特征 向 量 e。 为 此 根据 最 小 二 乘法 原理 ， 此 处 的 e 为 观测 矩阵 8 的 协 方差 矩阵 C = coat 
正 交 特 征 矢量 ， 其 中 cx 的 表达 式 如 (3) R, 元， 雹 为 列 矢量 的 平均 值 。 


y = ý 
je = Wa (xy -E)E lSjksm 3) 


ii 1 
a m yy ms n 
条 二 一 Xij Xe = —Di1 Xin (4) 
i=1 n 


构造 行列 式 方程 |C 一 U| = 0, SEPA AT USK, DA mxm) WERE, WER 
解 这 个 方程 ， 可 以 得 到 特征 根 1, RKE G) 式 ， 就 能 求 得 特征 矢量 e; 


方程 |C — U| = 0 可 以 求解 得 到 m 个 特征 根 , 按 从 大 到 小 的 顺序 排列 , L 2 ls 2 lg Se 2 lm 2 
0。 每 一 个 特征 根 1; 对 应 一 个 特征 向 量 e;， 同 时 对 应 可 得 第 i 个 主 成 分 pci， 最 大 的 ! 对 应 第 1 
主 成 分 。 在 主 成 分 分 析 法 中 ， 将 中 /2 四 称 为 主 成 分 pc 的 贡献 率 ， 将 豆 14/221li 称 为 主 
成 分 pc1，pc2，pc3, Pcg (kK Sm) 的 累计 贡献 率 。 
1.2 主 成 分 分 析 的 算法 流程 
(1) ”对 样本 中 每 个 特征 指标 下 的 数据 ， 减 去 该 特征 的 平均 值 ， 即 对 所 有 样本 进行 中 
心 化 ; 


(2) ”计算 样本 矩阵 的 协 方差 矩阵 ; 


ERAT! 


《3) 求 协 方差 矩阵 的 特征 根 和 特征 根 所 对 应 的 特征 矢量 ; 
(4) ”根据 特征 根 的 大 小 ， 计 算得 到 每 个 特征 根 对 应 的 贡献 率 和 累计 贡献 率 ; 


(5) ”用 每 一 个 特征 矢量 乘 以 样本 矩阵 计算 得 到 每 一 个 主 成 分 ， 即 降 维 后 输出 的 新 样 
本 。 


1.3 主 成 分 分 析 结 果 


利用 LAMOST DR5 数据 集 给 出 的 谱 线 指数 、 有 效 温 度 以 及 有 效 温度 误差 数据 ， 给 定 温度 
为 7500K 至 11000K 提取 A 型 星 的 数据 ， 之 后 首先 对 数据 筛选 预 处理 ， 去 除 一 些 明 显 噶 常 的 
数据 ， 比 如 空 值 、 显 示 为 -9999 的 数据 ， 除 此 之 外 ， 正 常情 况 下 谱 线 指数 都 应 该 是 正 值 ， 但 
是 由 于 郭守敬 望远镜 流量 定 标 没 有 定好 ， 有 些 谱 线 指数 的 数据 出 现 负 值 ， 因 此 ,在 这 里 只 选 
取 谱 线 指数 为 正 值 的 正常 数据 ， 一 共 选 取 53739 组 A 型 星 的 数据 。 


通过 主 成 分 分 析 的 方法 对 19 种 谱 线 指数 数据 (kp12，kp18, kp6，hdeltal2，hdelta24， 

hdelta48, hdelta64， hgammal2,hgamma24, hgamma48, hgammad4, hbetal2, hbeta24, 
一 hbeta48，hbeta60, halphal2，halpha24，halpha48，halpha70) 进行 相关 性 降 维 ， 设 定 累 
> 计 贡 献 率 大 于 90%， 得 到 了 3 个 主 成 分 ， 方 差分 别 为 : 15. 479，1. 563，1. 507。 因 此 , E 
分 一 贡献 率 a=77. 82%， 主 成 分 二 贡献 率 8=7. 86%， 主 成 分 三 贡献 率 y=7. 58%。 再 结合 主 成 分 
分 析 过 程 中 得 到 的 转换 矩阵 w: 


ay a2 aan Q19 
w= |b, pb … Dio} (6) 
C1 C2 aan C19 
1 ai 1 bi / Ci 


ci = ———,, i = 1,2,-:-,19 (7) 


so “i jle / 
ad 二 az+…+ali9 © bitbzt+:%+tbio © citczst:*+c19’ 
Pi=aatb-Bte-y it=1,2,---,19 (8) 


© 转换 矩阵 w 每 一 行 对 应 新 得 到 的 一 种 主 成 分 , 每 一 列 代表 每 种 原始 特征 的 权重 大 小 , 根据 (7) 
.~ 式 按 行进 行 归 一 化 ， 得 到 每 种 谱 线 指数 对 应 3 SERIE Daj, bi, co ZAZA 
种 主 成 分 的 贡献 率 ， 按 照 (8) 式 计 算得 到 每 种 谱 线 指数 占 整 个 数据 信息 的 百分比 大 小 pi。 

见 表 1。 从 大 到 小 排序 如 下 : hgamma54, hdelta64, hgamma48, hdelta48, halpha70, hbeta60, 
halpha48, hbeta48, kp18, hdelta24, hgamma24, kp12, halpha24, hbeta24, kp6, hdeltal2, 
halphal2, hgammal2, hbetal2. 


表 1 每 种 谱 线 指数 占 整 个 数据 信息 的 百分比 大 小 


Table 1 thepercentage of the entire informationfor each spectral index 


kp12 kp18 kp6 hdeltal2 hdelta24 hdelta48 hdelta64 hgammal2 hgamma24  hgamma48 


4. 06% 4. 96% 2. 31% 1. 96% 4. 71% 7. 50% 8. 29% 1. 91% 4. 38% 8. 22% 


hgamma54 hbetal2 hbeta24 hbeta48 hbeta60 halphal2 halpha24 halpha48 halpha70 


8. 92% 1. 55% 3. 23% 5. 70% 6. 29% 1. 94% 3. 70% 6. 21% 7.47% 


2 ”搭建 神经 网 络 模型 


本 文 使 用 的 机 器 学 习 模 型 是 多 层 感知 器 (Multilayer Perceptron, MLP)， 即 神经 网 络 
EAD, 在 Python 环境 下 提供 了 多 种 机 器 学 习 算法 ， 其 中 sklearn. neural_network 模块 
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提供 多 层 感知 器 回归 算法 ， 即 MLPRegressor"”。 多 层 感知 器 顾名思义 ， 由 多 个 层 构 成 ， 包 括 
一 个 输入 层 和 可 以 规定 数量 的 多 个 隐藏 层 以 及 一 个 输出 层 , 隐藏 层 的 加 入 增强 了 模型 的 表达 
能 力 ， 但 同时 也 使 得 模型 变 得 更 加 复杂 ， 对 于 输出 层 的 神经 元 来 说 ， 可 以 有 不 止 一 个 输出 。 


神经 网 络 模型 设置 了 两 个 隐藏 层 ， 每 个 隐藏 层 包含 100 个 节点 ， 多 层 感知 器 回归 算法 
MLPRegressor 中 可 选择 的 激励 函数 有 4 种， 分 别 是 identity, logistic, tanh, relu, 分 
别 测试 了 这 4 种 激励 函数 下 模型 的 表现 ， 如 表 2。 由 表 2 可 以 看 出 , 选择 identity 和 relu 
时 模型 表现 比较 好 。 选 择 relu 时 模型 表现 更 好 , 并 且 选 择 relu 时 模型 训练 速度 较 快 ， 效 率 
较 高 。 因 此 , 搭建 神经 网 络 模型 的 激励 函数 设置 为 relu。 但 是 选择 relu 作为 激励 函数 时 有 
一 个 缺点 ， 可 能 会 造成 神经 元 坏死 ， 为 了 避免 这 种 情况 发 生 ， 在 这 里 网 络 的 学 习 速 率 设 置 的 
较 小 ， 避 免 权 重 突然 更 新 过 多 ， 导 致 神经 元 彻底 关闭 。 


表 2 不 同 激励 函数 下 多 层 感 知 器 的 表现 
Table 2 the performance of MLP byusing different Activation function 


identity logistic tanh relu 
> Score 0. 886 <0 <0 0. 904 
Te Mean absolute error 70. 02K large large 58. 38K 
H < Standard deviation 59. 22K large large 60. 81K 


, 经 过 测试 ， 梯 度 下 降 函 数 选 择 在 相对 较 大 数据 集 上 效果 较 好 的 adam， 此 时 模型 运算 效 
= 率 较 高 并 且 结 果 较 好 。 设 置 正则 化 系数 alpha 则 是 为 了 避免 过 拟 合 的 发 生 ， 设 置 为 0. 001， 
e 同时 保证 模 秋 wanes Avie mE. 最 大 训练 迭代 次 数 max iter 经 过 测试 设置 为 4000。 除 此 之 
= 外 其 他 参数 设 定 为 默认 设置 。 


2.1 选择 输入 参数 


1 是 郭守敬 望远镜 提供 的 有 效 温 度 的 绝对 误差 分 布 图 ,选取 有 效 温度 误 差 小 于 100K, 
> 共计 45095 组 数据 建立 模型 ， 其 中 随机 选取 80% 的 数据 作为 训练 数据 ，20% 的 数据 作为 训练 
= 之 后 的 测试 数据 。 通 过 主 成 分 分 析 法 给 出 了 19 种 谱 线 指数 占 整个 数据 信息 的 百分比 大 小 排 


f a 


rT 序 , 据 此 ， 选择 与 有 效 温度 关系 最 紧密 的 儿 种 谱 线 指数 作为 神经 网 络 模 型 的 输入 ,按照 信息 
= 占 比 从 大 到 小 的 顺序 依次 选择 1 种 到 全 部 19 种 谱 线 指数 作为 神经 网 络 模型 输入 。 测 试 不 同 


指标 数量 下 模型 的 表现 , 建立 模型 之 后 score 命令 可 以 给 出 模型 的 评分 , 即 模 型 对 全 部 数据 
的 预测 结果 的 决定 系数 R?， 具 体 计算 公式 见 (9〉 式 ， 其 中 ，U0 为 残 差 平 方 和 ;yi 为 真实 的 
数据 ，y 为 预测 的 数据 ; V 为 总 平方 和 ; 元 为 真实 数据 的 平均 值 。 决 定 系 数 R? 越 接近 1 表示 
模型 与 数据 匹配 越 好 ”。 


U- = 
R*=1- 7 其 中 U0 = Yin — Yp)? V= View 一 元 )”(9) 


表 3 与 图 2 是 以 模型 的 评分 为 标准 给 出 的 结果 。 可 以 看 出 ， 选 取 包 含 信息 最 多 的 前 12 
种 谱 线 指数 数据 时 ， 模 型 的 评分 最 高 ， 模 型 表现 最 好 ， 因 此 ， 选 取 前 12 种 谱 线 指数 ， 即 
hgamma54, hdelta64, hgamma48, hdelta48, halpha70, hbeta60, halpha48, hbeta48, kp18, 
hdelta24，hgamma24，kp12 作为 神经 网 络 模 型 的 输入 。 
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图 1 有 效 温度 绝对 误差 分 布 图 


Fig 1 Absolute error distribution diagram effective temperature 


表 3 不 同 指标 数量 下 模型 的 评分 


Table 3the model score for different number of features 
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the number of selected features 


图 2 模型 评分 随 指标 数量 的 变化 


Fig.2 the relationship between score and the number of selected features 


2.2 建立 模型 
2.2. 1 模型 在 训练 数据 集 上 的 表现 


在 80% 的 训练 数据 集 上 ， 用 得 到 的 神经 网 络 模 型 对 有 效 温度 进行 了 预测 ， 如 图 3 Cad, 
训练 数据 集 36076 个 数据 点 整体 分 布 在 相对 集中 的 区 域 , 个 别 数据 偏离 较 大 ， 除 此 之 外 ，E 
图 3 Cb) 可 以 看 出 ， 随 着 有 效 温度 变 大 ， 误 差 存在 一 个 轻微 的 下 降 趋 势 ， 文 [7] 对 于 这 个 现 
象 的 解释 是 可 能 因为 人 工 神经 网 络 内 部 的 机 制 的 原因 , 考虑 到 郭守敬 望远镜 数据 本 身 对 于 早 
型 星 的 恒星 参数 测量 并 不 准确 , 所 以 有 可 能 是 数据 本 身 的 影响 造成 的 , 有 竺 进行 更 加 深入 的 
讨论 。 经 过 计算 绝对 误差 的 平均 值 为 58. 12Kk， 标 准 差 为 60. 99K， 结 合 测试 数据 集 上 的 预测 
结果 ， 两 者 的 平均 绝对 误差 和 标准 差 的 结果 基本 一 致 ， 由 此 可 以 表明 ， 神 经 网 络 模型 并 没有 
发 生 过 拟 合 。 
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Fig.4 error distribution diagram of 


Fig.5 learning curves 


effective temperature on train data set 


图 4 给 出 
差 为 84. 167。 
加 ， 训 练 得 分 
分 ) 与 训练 得 


达到 某 一 值 后 迅速 下 降 ， 即 过 拟 合 


了 误差 分 布 图 及 其 拟 合 的 正 态 分 布 曲线 , 正 态 分 布 的 数学 期 望 为 -3. 668， 
图 5 是 神经 网 络 模 型 的 学 习 曲 线 ， 从 图 中 可 以 看 出 ， 随 着 训练 样本 数量 


标准 


(图 中 红线 部 分 ) 快速 增加 ， 达 到 饱和 之 后 趋 于 水 平 。 测 试 得 分 (图 中 缴 
分 变化 趋势 一 致 ,但 是 并 没有 出 现 训 练 得 


是 


a ASH 
录 线 部 


分 较 高 ， 测 试 得 分 较 低 或 者 测试 得 分 


青 况 。 除 此 之 外 ,训练 得 分 与 


5 测试 得 分 都 处 于 较 高 的 水 


F, 因此 神经 网 络 模型 并 没有 欠 拟 合 。 整 体 来 看 ,模型 的 学 习 曲线 收敛 且 误 差 较 小 ， 是 一 条 
比较 理想 的 学 习 昌 线 。 


2.2.2 模型 在 测试 数据 集 上 的 表现 


对 于 神经 


温度 的 预测 结果 ， 其 


整体 预测 结果 
差 为 60. 81K, 
差 变化 趋势 ， 
除 此 之 外 ， 


还 能 


pa 


网 络 回归 模型 ， 程 序 给 出 的 评分 为 0. 904, 
UD N Se a aga alerts tt 
较 好 ， 绝 对 误差 的 平均 值 为 58. 38K, ANE A 型 星 有 效 温度 的 百 分 
晶 是 还 是 存在 个 别 预测 数据 与 实际 数据 偏离 较 大 ; 图 6 Cb) 2 

可 以 看 出 ， 误 差 围绕 在 纵 坐标 轴 y0 上 下 ， 个 别 数据 还 是 
够 看 出 误差 有 一 个 轻微 的 下 降 趋 势 。 图 6 Cc) 给 


‘on 


合 的 正 态 分 布 
态 分 布 拟 合 的 


数学 


期 望 为 -3. 366， 标 准 差 为 84. 229。 可 见 模型 的 有 效 温 


文 [7 建立 的 模型 有 了 很 大 的 改进 与 提升 。 


6 是 在 测试 数据 集 上 得 到 的 有 效 
成 正比 ， 


， 标 准 
VNR 


出 现 了 较 大 的 偏离 ， 
出 了 误差 的 分 布 图 及 其 拟 
曲线 ， 可 以 看 出 与 训练 数据 集 上 的 结果 一 致 ， 误 差 主 要 集中 在 100K LAA, E 
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图 6 神经 网 络 回归 模型 在 测试 数据 集 上 的 预测 结 


Fig.6 the results of forecast by neural networkontestdataset 


2.3 不 同 模 型 比较 

支持 向 量 机 和 神经 网 络 模 
模块 ， 建 立 了 一 个 支持 向 量 机 
网 络 模 型 进行 了 对 比 ， 


型 都 可 以 解决 非 线 性 的 回归 


HR 


问题 ， 


通过 sklearn. svm 中 的 SVR 


回归 模型 (Support Vector Regression, SVR) 与 前 文 的 神经 


见 表 4。 此 外 还 建立 了 一 个 决策 树 回 归 模 型 (Decision Tree 
Regression, DTR)， 选 取 80% 的 数据 作为 训练 数据 ，20% 的 数据 作为 测试 数据 ， 为 了 防止 严重 


过 拟 合 的 发 生 ， 经 过 测试 决策 树 回 归 模 型 的 最 大 深度 设置 为 6。 查看 决策 树 回 归 模 型 在 两 个 


数据 集 上 的 结果 ， 


此 时 在 训练 数据 集 上 绝对 误差 的 平均 值 为 65. 10K， 标 准 差 为 61. 74K, Æ 


测试 数据 集 上 绝对 误差 的 平均 值 为 66. 76K, 标准 差 为 62. 83K, 因此 , 模型 没有 发 生 过 拟 合 。 


表 4 给 出 了 3 种 模型 在 测试 数据 集 上 的 结 


HRX EE. H UAH, 


神经 网 络 模型 在 评分 和 误差 方 


面 比 支持 向 量 机 、 决 策 树 回 归 模 型 较 好 的 结果 。 图 7 (a) 和 
机 和 决策 树 回 归 模 型 在 测试 数据 集 上 的 误差 变化 , 前 文 提 到 神 


大 ， 误 差 存 在 一 个 轻微 的 下 降 趋 势 ， 从 图 
8200K 到 8500K 之 | 


个 下 降 的 趋势 ， 尤其 是 
的 原因 可 能 不 单单 是 神经 网 络 


图 7 Cb) 分 别 给 出 了 支持 向 量 


经 网 络 模型 随 着 有 效 温度 的 变 


7 (a) 文 持 向 量 机 模型 整体 来 看 ， 误 差 也 存在 一 
E, TRAE ARAL AY FERA, 


因此 , 产生 这 个 现象 


内 部 的 原因 ， 也 可 能 与 数据 本 身 有 关 。 


表 4 模型 的 比较 


Table 4 thecomparisonofdifferentmodels 


DTR SVR MLP 
Score 0. 890 0. 882 0. 904 
Mean absolute error 66. 76K 67. 23K 58. 38K 
Standard deviation 62. 83K 68. 64K 60. 81K 
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图 7 支持 向 量 机 和 决策 树 回 归 模 型 在 测试 数据 集 上 的 预测 结果 


Fig.7 the results of forecast by SVR and DTR 


3 ”神经 网 络 模 型 的 应 用 
3. 1 对 有 效 温度 误差 较 大 的 数据 进行 改进 


选取 了 LAMOST DR5 数据 集中 包含 有 有 效 温度 、 有 效 温度 绝对 误差 以 及 19 种 谱 线 指数 数 
据 的 A 型 星 数 据 ， 共 计 53739 组 ， 使 用 其 中 有 效 温度 误差 小 于 LOOK 共 45095 组 数据 建立 了 
神经 网 络 模型 。 通过 建立 的 神经 网 络 模型 对 有 效 温度 误差 大 于 100K 的 8644 组 数据 , 使 用 其 
谱 线 指数 数据 进行 了 计算 预测 , 给 出 了 有 效 温度 值 ， 对 数据 进行 了 改进 与 提升 , 提供 了 一 定 
程度 的 参考 价值 。 对 于 LAMOST DR5 数据 集中 有 效 温 度 绝对 误差 大 于 100K 的 数据 , 图 8 Ca) 
是 有 效 温度 绝对 误差 的 分 布 图 ， 图 8 Cb) 是 通过 模型 的 预测 得 到 的 有 效 温度 的 绝对 误差 分 
布 图 。 对 于 LAMOST 给 出 的 有 效 温度 绝对 误差 ， 平 均值 为 185. 10Kk， 标 准 差 为 78. 79K; 神经 
网 络 模型 给 出 的 有 效 温度 绝对 误差 平均 值 为 115. 24， 标 准 差 为 104. 88K。 可 以 看 出 ， 有 效 
温度 绝对 误差 平均 值 有 明显 下 降 ， 对 于 有 效 温度 数据 一 定 程度 上 有 所 改进 与 提升 。 
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Fig. 8absolute error distri 
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图 8 有 效 温度 绝对 误差 与 模型 预测 得 到 的 有 效 温度 绝对 误差 分 布 图 


bution diagram of effective temperature for LAMOST and prediction 


3.2 对 LAMOST 缺少 的 A5 光谱 型 恒星 有 效 温度 数据 进行 补充 
出 了 40 多 万 条 A 型 星光 谱 , 但 明确 给 出 有 效 温度 数据 的 A 型 星 只 有 8 


DR5 数据 集 一 共 给 
万 多 颗 ,， 这 其 中 还 包括 很 多 误差 非常 大 上 
以 使 用 谱 线 指数 的 数据 ， 更 加 自动 高 效 
供 一 定 的 参考 意义 。 依 据 哈 佛 天 文 台 的 恒星 光 i 


的 数据 。 对 于 有 效 温度 的 测量 ， 通 过 神经 网 络 模型 可 


E 


也 进行 测量 ， 


定 程度 上 弥补 这 部 分 数据 的 缺失 , 提 


普 分 类 系统 ， 除 了 分 为 B A F G K M 


R、S、N 几 个 光谱 型 之 外 ， 对 于 每 种 光谱 型 还 可 以 分 为 10 个 次 型 ， 用 数字 0 到 9 表示 ， 并 


且 对 应 恒星 的 温度 依次 下 降 "。 考 虑 到 模型 使 ) 


有 效 温度 7500K 到 8500K 的 数据 训练 建立 的 ， 


这 里 选取 温度 区 间 相 近 的 光谱 型 恒星 ， 以 A5 型 恒星 数据 为 例 ”，LAMOST 提供 了 谱 线 指数 数 


据 且 分 类 为 AS 型 的 恒 


网 络 模型 给 出 


=| 


星 一 共有 470 组 ， 基 本 没有 给 


HH 有效 温度 的 数据 。 考 虑 到 流量 定 标 没 
有 定好 ， 导 致 谱 线 指数 出 现 负 值 的 情况 ,选取 其 中 每 种 谱 线 指数 都 大 于 0 的 数据 ,通过 神经 
了 这 些 恒星 的 有 效 温度 数据 ， 表 5 展示 了 其 中 一 小 部 分 结果 ， 包 括 观测 号 


Cobsid), #825 (Dec), 7r% (Ra) 和 预测 得 到 的 有 效 温度 〈teff)。 根 据 MK 分 类 系统 的 光 


谱 型 与 有 效 温度 之 


INA 


， 对 于 AS 型 恒星 来 说 ,光度 级 为 1〈 超 巨星 )， 即 A5 型 恒星 


的 有 效 温度 为 8610K; 光度 级 为 V〈 主 序 星 )， 即 ASV 型 恒星 的 有 效 温度 为 8180K， 光 度 级 


V OERE) 的 恒星 的 有 效 温度 更 低 。 考虑 到 观测 数据 的 分 类 以 及 谱 线 指数 数据 都 可 能 不 准 


EN 


fo 预测 得 到 的 A5 型 恒星 的 有 效 温度 基本 符合 


F 述 范围 。 


表 5 预测 得 到 LAMOST DRS 数据 集中 A5 型 恒星 有 效 温度 
Table Spredicted effective temperature of AS type star in LAMOST DRS data set 


obsid Ra Dec teff obsid Ra Dec teff 
4113006 51.65291 52. 66395 8571. 45 555314004 91.01701 20. 9542681 7987. 72 
4607082 36.6579 56. 944608 7839. 64 557706227 235.2796 0. 8151459 6991. 45 
6808044 98. 74538 28. 21549 7154. 94 565210158 273. 0517 1. 957477 8497. 29 
15004223 57.59596 50.719356 8172. 05 583707042 281. 6488 0. 500164 7415. 48 
15010203 54.65725 49. 709679 8807. 14 583707045 281. 6511 0. 224461 7120. 40 
38501228 60.50061 47. 978225 7450. 72 573311118 275.7202 —-0. 859244 8354. 52 
38504105 62.32311 50. 106506 7339. 61 573504037 281. 2724 7. 070487 8316. 87 
506112038 309. 9581 43. 619166 8170. 19 289916227 83.09115 37. 684256 8311. 47 
506113076 311.0851 41. 94965 8640. 66 250705140 306.9164 37. 379419 8564. 75 
4， 结 论 


通过 LAMOST DR5 数据 集 提 供 的 A 型 星 


度 关 系 最 紧密 的 12 种 谱 线 指数 作为 输入 


19 种 谱 线 指数 与 有 效 温 度数 据 , 通过 主 成 分 分 析 
法 进行 相关 性 降 维 , 根据 每 种 谱 线 指数 占 整 个 数据 信息 的 百分比 , 经 过 测试 选择 了 与 有 效 温 


数据 。 筛 选 有 效 温 度 误差 小 于 100K 的 数据 建立 了 神 


经 网 络 回归 模型 ， 模 型 在 测试 数据 集 上 表现 良好 ， 评 分 为 0. 904， 平 均 绝对 误差 为 58. 38K, 
标准 差 为 60. 8IK。 对 比 相 关 研 究 的 模型 ， 


回归 模型 对 LAMOST 提供 


HEH 


3 


h 度 有 了 很 大 的 提升 。 通 过 有 效 温度 神经 网 络 
的 有 效 温度 误差 大 于 100K 的 数据 进行 了 预测 , 经 过 模型 预测 得 到 的 
有 效 温度 数据 的 绝对 误差 平均 值 有 明显 的 下 降 ,一定 程度 上 对 这 部 分 数据 进行 了 改进 与 提升 ， 


此 外 , LAMOST DRS 数据 集 提 供 了 大 量 的 A 型 星 数据 ， 但 绝 大 部 分 缺少 有 效 温度 数据 ， 通 过 神 


经 网 络 模型 可 以 实现 高 效 自动 较为 准确 地 给 出 这 部 分 数据 , 以 光谱 型 为 A5 的 恒星 数据 为 例 ， 
对 LAMOST 缺少 有 效 温 度 的 A 型 星 数据 进行 了 弥补 与 补充 ， 提 供 了 一 定 的 参考 意义 


J 


i 


包括 A 型 星 在 内 的 早 型 星 的 恒星 参数 不 容易 测量 得 到 ，LAMOST 巡天 项 目 提 供 了 海量 的 
普 观 测 数 据 , 其 中 包括 大 量 的 A 型 星 数据 ， 但 包括 有 效 温度 在 内 的 恒星 参数 数据 却 非 常 缺 


乏 。 通 过 本 文 方法 验证 了 建 并 神经 网 络 模 型 利用 谱 线 指数 预测 有 效 温度 的 方法 是 有 效 可 行 的 ， 


该 方法 能 够 自动 高 效 地 测量 有 效 温度 , 并 且 测量 的 准确 度 相 比 于 前 人 建立 的 模型 有 了 入 


大 的 改进 与 提升 。 
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Neural network model of the effective temperature for A 


type star based on principal component analysis 
Li Zhengze Zhao Gang!” 


(1.Key Laboratory of Optical Astronomy, National Astronomical Observatories, Chinese Academy of 
Sciences, Beijing 100101 
2. School of Astronomy and Space Science, University of Chinese Academy of Sciences, Beijing 100049) 


Abstract: The Large Sky Area Multi-Object Fiber Spectroscopic Telescope (LAMOST) has 
provided bulk of stellar spectra data. DRS catalogue contains plenty ofspectral indices and 
effective temperature of A type stars. Recently machine learning algorithms such as Neural 
network model which can be used to explore the deep relationship between different data have 
been widely used in various disciplines. In this paper with19 spectral line indices and effective 
temperature of A type star from LAMOST DRS data set. Through Principal component analysis 
(PCA), we present thepercentage of the entire informationfor each spectral index and 12 
spectral line indices which are most closely related toeffective temperature are selected as an 
input to establish a Neural network model for effective temperature, meanwhile the absolute 
error of effective temperature for these input data are less than 100K. The model performs well 
overall on the test data set. The coefficient of determinationR?given by the program is 0.904 
and an average absolute error of 58.38K.Compared with related research model, the 
measurement accuracy has been significantly improved.Furthermore, fortheraw data which 
have absolute error more than 100K, we remeasureeffective temperature via our model and the 
average absolute error of the new effective temperature data has decreased significantly. 
Besides LAMOST DRS catalogue barely have effective temperature of A5 type star, we make 
up these missing data. Thiswork provides a certain degree of reference significance. 


Key words:Neural network; A type star; principal component analysis 


